{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "c3052f7c",
   "metadata": {},
   "source": [
    "| [05_text_matching/01_词粒度文本匹配.ipynb](https://github.com/shibing624/nlp-tutorial/tree/main/05_text_matching/01_词粒度文本匹配.ipynb)  | 基于字面和word2vec的词文本匹配  |[Open In Colab](https://colab.research.google.com/github/shibing624/nlp-tutorial/blob/main/05_text_matching/01_词粒度文本匹配.ipynb) |\n",
    "\n",
    "# 词粒度文本匹配\n",
    "\n",
    "1. 基于字面的文本相似计算\n",
    "2. 基于word2vec的文本相似度计算\n",
    "\n",
    "## 基于字面的文本相似计算"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "7bf4a53b",
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_chars_sim_score(str1, str2):\n",
    "    \"\"\"字面相似度计算\"\"\"\n",
    "    def same_chars(str1, str2):\n",
    "        return set(str1) & set(str2)\n",
    "\n",
    "    dp = min(len(str1) / len(str2), len(str2) / len(str1))\n",
    "    alpha = 0.6\n",
    "    beta = 0.4\n",
    "    sames = same_chars(str1, str2)\n",
    "    def get_weighted(word, sames):\n",
    "        top = 0.0\n",
    "        bottom = 0.0\n",
    "        for idx, i in enumerate(word):\n",
    "            if i in sames:\n",
    "                top += (idx + 1)\n",
    "            bottom += (idx + 1)\n",
    "        return top / bottom\n",
    "\n",
    "    p1 = alpha * (len(sames) / len(str1) + len(sames) / len(str2)) / 2\n",
    "    p2 = beta * dp * (get_weighted(str1, sames) + get_weighted(str2, sames)) / 2\n",
    "    score = p1 + p2\n",
    "    return score, sames\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "2e10690f",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(0.5711904761904762, {'中', '国', '爱'})"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "get_chars_sim_score('我爱中国', '你也爱中国吧')"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "89591cfc",
   "metadata": {},
   "source": [
    "通过两句话的字面相同文本计算其相似度值。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2ec56a9e",
   "metadata": {},
   "source": [
    "## 基于word2vec模型比较词相似度"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "5a570acd",
   "metadata": {},
   "outputs": [],
   "source": [
    "import gensim"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "224c1c41",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[['1,本报记者',\n",
       "  '发自',\n",
       "  '上海',\n",
       "  '国外',\n",
       "  '媒体',\n",
       "  '昨日',\n",
       "  '报道',\n",
       "  '澳大利亚',\n",
       "  '银行',\n",
       "  'acq',\n",
       "  'arie',\n",
       "  '预计',\n",
       "  '推出',\n",
       "  '中国',\n",
       "  '人民币',\n",
       "  '10',\n",
       "  '亿元',\n",
       "  '商业',\n",
       "  '住房',\n",
       "  '抵押',\n",
       "  '贷款',\n",
       "  '资产',\n",
       "  '证券化',\n",
       "  '计划',\n",
       "  '有关部门',\n",
       "  '批准',\n",
       "  '将是',\n",
       "  '海外',\n",
       "  '资金',\n",
       "  '首次',\n",
       "  '此项',\n",
       "  '计划',\n",
       "  '市场分析',\n",
       "  '人士',\n",
       "  '计划',\n",
       "  '预计',\n",
       "  '中国',\n",
       "  '监管部门',\n",
       "  '阻力',\n",
       "  '考虑到',\n",
       "  '交易',\n",
       "  '相关',\n",
       "  '高昂',\n",
       "  '固定成本',\n",
       "  '人民币',\n",
       "  '10',\n",
       "  '亿元',\n",
       "  '可能是',\n",
       "  '最低',\n",
       "  '金额',\n",
       "  '银行',\n",
       "  '原本',\n",
       "  '计划',\n",
       "  '2006',\n",
       "  '年初',\n",
       "  '中国',\n",
       "  '推出',\n",
       "  'macquarie',\n",
       "  'anda',\n",
       "  '房地产',\n",
       "  '投资信托',\n",
       "  '计划',\n",
       "  '香港特区',\n",
       "  '证监会',\n",
       "  '否决',\n",
       "  '该银行',\n",
       "  '中国',\n",
       "  '房地产投资',\n",
       "  '基金',\n",
       "  '首席',\n",
       "  '投资',\n",
       "  '执行官',\n",
       "  '此前',\n",
       "  '开发商',\n",
       "  '行列',\n",
       "  '竟是',\n",
       "  '金融机构',\n",
       "  '项目',\n",
       "  '投融资',\n",
       "  '资本运作',\n",
       "  '才是',\n",
       "  '特长'],\n",
       " ['2,复旦',\n",
       "  '新浪',\n",
       "  '本报记者',\n",
       "  '杨国强',\n",
       "  '1984年',\n",
       "  '相貌端正',\n",
       "  '复旦大学',\n",
       "  '新闻系',\n",
       "  '大学',\n",
       "  '同学',\n",
       "  '回忆说',\n",
       "  '内向',\n",
       "  '做事',\n",
       "  '很有',\n",
       "  '生活',\n",
       "  '学习',\n",
       "  '很有',\n",
       "  '计划性',\n",
       "  '大学毕业',\n",
       "  '上海',\n",
       "  '电视台',\n",
       "  '当了',\n",
       "  '两年',\n",
       "  '记者',\n",
       "  '赴美',\n",
       "  '求学',\n",
       "  '先在',\n",
       "  '奥克拉荷',\n",
       "  '大学',\n",
       "  '拿了',\n",
       "  '新闻学',\n",
       "  '硕士',\n",
       "  '再到',\n",
       "  '德州',\n",
       "  '奥斯汀',\n",
       "  '大学',\n",
       "  '拿了',\n",
       "  '财务',\n",
       "  '专业',\n",
       "  '硕士',\n",
       "  '转入',\n",
       "  '企业界',\n",
       "  '早就',\n",
       "  '美国',\n",
       "  '会计师',\n",
       "  '协会',\n",
       "  '美国',\n",
       "  '注册会计师',\n",
       "  '1993',\n",
       "  '1999',\n",
       "  '普华永道',\n",
       "  '工作',\n",
       "  '负责',\n",
       "  '硅谷',\n",
       "  '地区',\n",
       "  '高科技公司',\n",
       "  '提供',\n",
       "  '审计',\n",
       "  '服务',\n",
       "  '商业',\n",
       "  '咨询',\n",
       "  '在此期间',\n",
       "  '参与',\n",
       "  '多家',\n",
       "  '高科技公司',\n",
       "  '上市',\n",
       "  '1999',\n",
       "  '2000',\n",
       "  '财务',\n",
       "  '副总裁',\n",
       "  '身份',\n",
       "  '加盟',\n",
       "  '新浪',\n",
       "  '运作',\n",
       "  '新浪',\n",
       "  '美国',\n",
       "  '上市',\n",
       "  '参与',\n",
       "  '设计',\n",
       "  '中国',\n",
       "  '互联网',\n",
       "  '公司',\n",
       "  '海外',\n",
       "  '上市',\n",
       "  '结构',\n",
       "  '新浪',\n",
       "  '余家',\n",
       "  '中国概念股',\n",
       "  '上市',\n",
       "  '提供',\n",
       "  '借鉴',\n",
       "  '2001年',\n",
       "  '担任',\n",
       "  '新浪',\n",
       "  'cfo',\n",
       "  '2000',\n",
       "  '2001',\n",
       "  '推动',\n",
       "  '新浪',\n",
       "  '变了',\n",
       "  '照搬',\n",
       "  '美国',\n",
       "  '网络广告',\n",
       "  '销售',\n",
       "  '方式',\n",
       "  '改为',\n",
       "  '符合',\n",
       "  '中国',\n",
       "  '广告主',\n",
       "  '需求',\n",
       "  '时段',\n",
       "  '流量',\n",
       "  '模式',\n",
       "  '广告',\n",
       "  '主和',\n",
       "  '客户',\n",
       "  '肯定',\n",
       "  '这一',\n",
       "  '举措',\n",
       "  '新浪',\n",
       "  '互联网',\n",
       "  '广告',\n",
       "  '市场',\n",
       "  '领先地位',\n",
       "  '奠定',\n",
       "  '基础',\n",
       "  '2003年',\n",
       "  '主持',\n",
       "  '谈判',\n",
       "  '两次',\n",
       "  '并购',\n",
       "  '新浪',\n",
       "  '无线',\n",
       "  '市场',\n",
       "  '后来居上',\n",
       "  '稳定的',\n",
       "  '利润',\n",
       "  '2004年',\n",
       "  '6月',\n",
       "  '兼任',\n",
       "  '新浪',\n",
       "  '联席',\n",
       "  '营长',\n",
       "  '负责',\n",
       "  '网站',\n",
       "  '运营',\n",
       "  '广告',\n",
       "  '销售',\n",
       "  '市场',\n",
       "  '广告',\n",
       "  '销售',\n",
       "  '部门',\n",
       "  '重组',\n",
       "  '进了',\n",
       "  '系统化',\n",
       "  '销售',\n",
       "  '管理体系',\n",
       "  '新浪',\n",
       "  '2005年',\n",
       "  '广告',\n",
       "  '销售',\n",
       "  '业绩',\n",
       "  '增长率',\n",
       "  '年来',\n",
       "  '首次',\n",
       "  '超过',\n",
       "  '竞争对手',\n",
       "  '推动',\n",
       "  '博客',\n",
       "  '发展计划',\n",
       "  '赢得了',\n",
       "  '新浪博客',\n",
       "  '成功',\n",
       "  '2005',\n",
       "  '年度',\n",
       "  '中国',\n",
       "  '杰出',\n",
       "  'cfo',\n",
       "  '2005',\n",
       "  '年度',\n",
       "  '中国',\n",
       "  '广告',\n",
       "  '影响力',\n",
       "  '人物',\n",
       "  '荣誉',\n",
       "  '2005年',\n",
       "  '9月',\n",
       "  '升任',\n",
       "  '新浪',\n",
       "  '裁并',\n",
       "  '兼任',\n",
       "  '首席',\n",
       "  '财务',\n",
       "  '2006年',\n",
       "  '5月',\n",
       "  '10日',\n",
       "  '担任',\n",
       "  '新浪',\n",
       "  'ceo'],\n",
       " ['2,美国',\n",
       "  '太空',\n",
       "  '网站',\n",
       "  '4月',\n",
       "  '27日',\n",
       "  '报道',\n",
       "  '5月',\n",
       "  '12日',\n",
       "  '14日',\n",
       "  '之间',\n",
       "  '73p',\n",
       "  '瓦斯',\n",
       "  '3号',\n",
       "  '彗星',\n",
       "  '30',\n",
       "  '碎片',\n",
       "  '史无前例',\n",
       "  '地球',\n",
       "  '对此',\n",
       "  '美国',\n",
       "  '宇航局',\n",
       "  '科学家',\n",
       "  '反驳',\n",
       "  '碎片',\n",
       "  '撞击',\n",
       "  '地球',\n",
       "  '更不',\n",
       "  '会引起',\n",
       "  '大规模',\n",
       "  '海啸',\n",
       "  '生物',\n",
       "  '灭绝',\n",
       "  '灾难',\n",
       "  '美国',\n",
       "  '宇航局',\n",
       "  '科学家',\n",
       "  '5月',\n",
       "  '12日',\n",
       "  '5月',\n",
       "  '28日',\n",
       "  '之间',\n",
       "  '即便是',\n",
       "  '73p',\n",
       "  '瓦斯',\n",
       "  '3号',\n",
       "  '彗星',\n",
       "  '最接近',\n",
       "  '地球',\n",
       "  '轨道',\n",
       "  '距离',\n",
       "  '地球',\n",
       "  '碎片',\n",
       "  '地球',\n",
       "  '月球',\n",
       "  '距离',\n",
       "  '20',\n",
       "  '多倍',\n",
       "  '不会有',\n",
       "  '危险',\n",
       "  '科学家',\n",
       "  '提醒',\n",
       "  '利用',\n",
       "  '会对',\n",
       "  '彗星',\n",
       "  '观察',\n",
       "  '科学家',\n",
       "  '预计',\n",
       "  '碎片',\n",
       "  '中最',\n",
       "  '明亮',\n",
       "  '碎片',\n",
       "  '双筒望远镜',\n",
       "  '肉眼',\n",
       "  '观察到',\n",
       "  'n101']]"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "txt_path = 'data/C000008_test.txt'\n",
    "sentences = [i.split() for i in open(txt_path, 'r', encoding='utf-8').read().split('\\n')]\n",
    "sentences[:3]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "b929c5f5",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'新浪': 0,\n",
       " '中国': 1,\n",
       " '化妆品': 2,\n",
       " '美国': 3,\n",
       " '广告': 4,\n",
       " '碎片': 5,\n",
       " '计划': 6,\n",
       " '地球': 7,\n",
       " '销售': 8,\n",
       " '上市': 9,\n",
       " '5月': 10,\n",
       " '科学家': 11,\n",
       " '皮肤': 12,\n",
       " '改善': 13,\n",
       " '大学': 14,\n",
       " '的产品': 15,\n",
       " '市场': 16,\n",
       " '彗星': 17,\n",
       " '财务': 18,\n",
       " '预计': 19,\n",
       " '参与': 20,\n",
       " '网站': 21,\n",
       " '兼任': 22,\n",
       " '提供': 23,\n",
       " '瓦斯': 24,\n",
       " '高科技公司': 25,\n",
       " '73p': 26,\n",
       " '负责': 27,\n",
       " '植物': 28,\n",
       " '拿了': 29,\n",
       " '2005年': 30,\n",
       " '1999': 31,\n",
       " '距离': 32,\n",
       " '硕士': 33,\n",
       " '首席': 34,\n",
       " '2000': 35,\n",
       " '年度': 36,\n",
       " '10': 37,\n",
       " '报道': 38,\n",
       " '银行': 39,\n",
       " '担任': 40,\n",
       " '推出': 41,\n",
       " '便宜': 42,\n",
       " '之间': 43,\n",
       " '人民币': 44,\n",
       " '2005': 45,\n",
       " '亿元': 46,\n",
       " '商业': 47,\n",
       " '推动': 48,\n",
       " 'cfo': 49,\n",
       " '12日': 50,\n",
       " '宇航局': 51,\n",
       " '互联网': 52,\n",
       " '海外': 53,\n",
       " '上海': 54,\n",
       " '首次': 55,\n",
       " '很有': 56,\n",
       " '3号': 57,\n",
       " '德州': 58,\n",
       " '奥斯汀': 59,\n",
       " '再到': 60,\n",
       " '赴美': 61,\n",
       " '新闻学': 62,\n",
       " '奥克拉荷': 63,\n",
       " '电视台': 64,\n",
       " '先在': 65,\n",
       " '求学': 66,\n",
       " '当了': 67,\n",
       " '两年': 68,\n",
       " '记者': 69,\n",
       " '那一': 70,\n",
       " '专业': 71,\n",
       " '副总裁': 72,\n",
       " '照搬': 73,\n",
       " '变了': 74,\n",
       " '2001': 75,\n",
       " '2001年': 76,\n",
       " '借鉴': 77,\n",
       " '中国概念股': 78,\n",
       " '余家': 79,\n",
       " '结构': 80,\n",
       " '公司': 81,\n",
       " '设计': 82,\n",
       " '运作': 83,\n",
       " '加盟': 84,\n",
       " '身份': 85,\n",
       " '多家': 86,\n",
       " '转入': 87,\n",
       " '在此期间': 88,\n",
       " '咨询': 89,\n",
       " '服务': 90,\n",
       " '审计': 91,\n",
       " '地区': 92,\n",
       " '工作': 93,\n",
       " '普华永道': 94,\n",
       " '1993': 95,\n",
       " '注册会计师': 96,\n",
       " '协会': 97,\n",
       " '会计师': 98,\n",
       " '早就': 99,\n",
       " '企业界': 100,\n",
       " '硅谷': 101,\n",
       " '同学': 102,\n",
       " '大学毕业': 103,\n",
       " '相关': 104,\n",
       " '市场分析': 105,\n",
       " '人士': 106,\n",
       " '监管部门': 107,\n",
       " '阻力': 108,\n",
       " '考虑到': 109,\n",
       " '交易': 110,\n",
       " '高昂': 111,\n",
       " 'macquarie': 112,\n",
       " '固定成本': 113,\n",
       " '可能是': 114,\n",
       " '最低': 115,\n",
       " '金额': 116,\n",
       " '原本': 117,\n",
       " '2006': 118,\n",
       " '此项': 119,\n",
       " '资金': 120,\n",
       " '将是': 121,\n",
       " '批准': 122,\n",
       " '有关部门': 123,\n",
       " '证券化': 124,\n",
       " '资产': 125,\n",
       " '贷款': 126,\n",
       " '抵押': 127,\n",
       " '住房': 128,\n",
       " 'arie': 129,\n",
       " 'acq': 130,\n",
       " '澳大利亚': 131,\n",
       " '昨日': 132,\n",
       " '媒体': 133,\n",
       " '国外': 134,\n",
       " '发自': 135,\n",
       " '年初': 136,\n",
       " 'anda': 137,\n",
       " '计划性': 138,\n",
       " '相貌端正': 139,\n",
       " '才是': 140,\n",
       " '特长': 141,\n",
       " '2,复旦': 142,\n",
       " '本报记者': 143,\n",
       " '杨国强': 144,\n",
       " '1984年': 145,\n",
       " '复旦大学': 146,\n",
       " '房地产': 147,\n",
       " '新闻系': 148,\n",
       " '回忆说': 149,\n",
       " '内向': 150,\n",
       " '做事': 151,\n",
       " '生活': 152,\n",
       " '学习': 153,\n",
       " '资本运作': 154,\n",
       " '投融资': 155,\n",
       " '项目': 156,\n",
       " '金融机构': 157,\n",
       " '竟是': 158,\n",
       " '行列': 159,\n",
       " '开发商': 160,\n",
       " '此前': 161,\n",
       " '执行官': 162,\n",
       " '投资': 163,\n",
       " '基金': 164,\n",
       " '房地产投资': 165,\n",
       " '该银行': 166,\n",
       " '否决': 167,\n",
       " '证监会': 168,\n",
       " '香港特区': 169,\n",
       " '投资信托': 170,\n",
       " '网络广告': 171,\n",
       " '这一': 172,\n",
       " '方式': 173,\n",
       " '很可能': 174,\n",
       " '角质化': 175,\n",
       " '过程': 176,\n",
       " '所需': 177,\n",
       " '时间': 178,\n",
       " '三个月': 179,\n",
       " '会把': 180,\n",
       " '理想': 181,\n",
       " '安全地': 182,\n",
       " '预期': 183,\n",
       " '短期': 184,\n",
       " '都是': 185,\n",
       " '加了': 186,\n",
       " '违禁': 187,\n",
       " '原料': 188,\n",
       " '虽然在': 189,\n",
       " '表皮': 190,\n",
       " '状况': 191,\n",
       " '3,化妆品': 192,\n",
       " '利用': 193,\n",
       " '月球': 194,\n",
       " '20': 195,\n",
       " '多倍': 196,\n",
       " '不会有': 197,\n",
       " '危险': 198,\n",
       " '提醒': 199,\n",
       " '会对': 200,\n",
       " 'n101': 201,\n",
       " '观察': 202,\n",
       " '中最': 203,\n",
       " '明亮': 204,\n",
       " '双筒望远镜': 205,\n",
       " '肉眼': 206,\n",
       " '观察到': 207,\n",
       " '天内': 208,\n",
       " '导致': 209,\n",
       " '最接近': 210,\n",
       " '皮肤病': 211,\n",
       " '成分': 212,\n",
       " '也许': 213,\n",
       " '发现': 214,\n",
       " '相差无几': 215,\n",
       " '配方': 216,\n",
       " '选购': 217,\n",
       " '简单': 218,\n",
       " '办法': 219,\n",
       " '尝试': 220,\n",
       " '检测': 221,\n",
       " '合格': 222,\n",
       " '品牌': 223,\n",
       " '选择': 224,\n",
       " '不良反应': 225,\n",
       " '感觉': 226,\n",
       " '对照': 227,\n",
       " '越好': 228,\n",
       " '质量': 229,\n",
       " '出售': 230,\n",
       " '2.': 231,\n",
       " '绿色': 232,\n",
       " '作成': 233,\n",
       " '形态': 234,\n",
       " '装在': 235,\n",
       " '瓶子': 236,\n",
       " '不可能': 237,\n",
       " '3.': 238,\n",
       " '不含': 239,\n",
       " '防腐剂': 240,\n",
       " '化学成分': 241,\n",
       " '迷信': 242,\n",
       " '纯天然': 243,\n",
       " '宣传': 244,\n",
       " '轨道': 245,\n",
       " '即便是': 246,\n",
       " '改为': 247,\n",
       " '增长率': 248,\n",
       " '并购': 249,\n",
       " '无线': 250,\n",
       " '后来居上': 251,\n",
       " '稳定的': 252,\n",
       " '利润': 253,\n",
       " '2004年': 254,\n",
       " '6月': 255,\n",
       " '联席': 256,\n",
       " '营长': 257,\n",
       " '运营': 258,\n",
       " '部门': 259,\n",
       " '重组': 260,\n",
       " '进了': 261,\n",
       " '系统化': 262,\n",
       " '管理体系': 263,\n",
       " '两次': 264,\n",
       " '谈判': 265,\n",
       " '主持': 266,\n",
       " '主和': 267,\n",
       " '符合': 268,\n",
       " '广告主': 269,\n",
       " '需求': 270,\n",
       " '时段': 271,\n",
       " '流量': 272,\n",
       " '模式': 273,\n",
       " '客户': 274,\n",
       " '2003年': 275,\n",
       " '肯定': 276,\n",
       " '最舒服': 277,\n",
       " '举措': 278,\n",
       " '领先地位': 279,\n",
       " '奠定': 280,\n",
       " '基础': 281,\n",
       " '业绩': 282,\n",
       " '年来': 283,\n",
       " '28日': 284,\n",
       " '超过': 285,\n",
       " '4月': 286,\n",
       " '27日': 287,\n",
       " '14日': 288,\n",
       " '30': 289,\n",
       " '史无前例': 290,\n",
       " '对此': 291,\n",
       " '反驳': 292,\n",
       " '撞击': 293,\n",
       " '更不': 294,\n",
       " '会引起': 295,\n",
       " '大规模': 296,\n",
       " '海啸': 297,\n",
       " '生物': 298,\n",
       " '灭绝': 299,\n",
       " '灾难': 300,\n",
       " '太空': 301,\n",
       " '2,美国': 302,\n",
       " 'ceo': 303,\n",
       " '杰出': 304,\n",
       " '竞争对手': 305,\n",
       " '博客': 306,\n",
       " '发展计划': 307,\n",
       " '赢得了': 308,\n",
       " '新浪博客': 309,\n",
       " '成功': 310,\n",
       " '影响力': 311,\n",
       " '10日': 312,\n",
       " '人物': 313,\n",
       " '荣誉': 314,\n",
       " '9月': 315,\n",
       " '升任': 316,\n",
       " '裁并': 317,\n",
       " '2006年': 318,\n",
       " '1,本报记者': 319}"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "model = gensim.models.Word2Vec(\n",
    "    sentences, vector_size=50, window=5, min_count=1, workers=4)\n",
    "model.save('C000008.word2vec.model')\n",
    "model.wv.key_to_index"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "id": "33a4d1bd",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0.07167525\n"
     ]
    }
   ],
   "source": [
    "# compare two word\n",
    "print(model.wv.similarity('中国', '澳大利亚'))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ae9e0981",
   "metadata": {},
   "source": [
    "从文件加载模型："
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "c6f67eb0",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0.07167525\n"
     ]
    }
   ],
   "source": [
    "model = gensim.models.KeyedVectors.load('C000008.word2vec.model')\n",
    "# compare two word\n",
    "print(model.wv.similarity('中国', '澳大利亚'))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "576dc069",
   "metadata": {},
   "source": [
    "通过两句话的embedding高维向量计算其语义层面的相似度值。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "e7b4a2a6",
   "metadata": {},
   "outputs": [],
   "source": [
    "import os\n",
    "os.remove('C000008.word2vec.model')"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "df8e9d89",
   "metadata": {},
   "source": [
    "本节完。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "1f5439ea",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.8"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}